- LEXICOMÉTRIE (domaine français)
- LEXICOMÉTRIE (domaine français)LEXICOMÉTRIE, domaine françaisDepuis Zipf et Yule (1930-1950) et, en France, P. Guiraud (1954, 1960), l’étude quantitative du vocabulaire, qu’on la nomme «statistique lexicale» ou «lexicométrie», a beaucoup évolué. Elle est devenue plus exigeante sur le plan de la définition de l’unité de comptage (C. Muller, A. Lyne, M. Tournier), sur celui des applications sociolinguistiques («dialectométrie» de J. Séguy puis de J.-L. Fossat, recherches québécoises, enquêtes du C.R.E.D.I.F.) ou historico-linguistiques (A. Prost, J.-M. Cotteret et R. Moreau) et sur celui de la critique des modèles et de l’interprétation des constats (G. T. Guilbaud). Plus performante aussi grâce aux capacités de l’ordinateur, pour lequel des logiciels de traitement de texte ont été écrits, par P. Lafon à Saint-Cloud, E. Brunet à Nice, J.-G. Meunier à Montréal, à l’université de Grenoble ou à l’Institut de statistique de J.-P. Benzécri à Paris. Si l’on met à part les recherches sur la structure des gammes de fréquences, les lois d’accroissement du vocabulaire et sur l’étendue ou la richesse du lexique, recherches qui font peu ou prou les prolégomènes de tout lexicométricien, on peut distinguer plusieurs approches aux postulats lexicologiques et statistiques divergents. Dans le domaine français, la plupart s’inspirent de deux maîtres dont l’autorité est incontestable: le linguiste Muller et le mathématicien Guilbaud, et toutes ont une dette envers le premier, qui a fait école depuis ses thèses sur Corneille, même et surtout si elles se déterminent par différence.L’école de Strasbourg. C’est à Muller, de l’université de Strasbourg, que revient le mérite d’avoir, avec Guiraud, implanté la statistique lexicale en France. Deux volumes présentent en toute rigueur et clarté les techniques devenues classiques qu’il préconise: Initiation aux méthodes de la statistique linguistique (Hachette, 1973) et Principes et méthodes de statistique lexicale (Hachette, 1977). L’unité de comptage demeure le «vocable» («type» chez G. Herdan), authentifié par un lemme de dictionnaire et dont toutes les occurrences fléchies («token» chez Herdan) sont à comptabiliser ensemble, cependant que le linguiste s’efforcera de séparer les homographes rattachables à des lemmes différents. L’école de Strasbourg ne travaille donc pas directement sur le texte mais sur la langue mise en œuvre dans le texte. Ses méthodes se fondent pour l’essentiel sur la loi binomiale (tirages aléatoires non exhaustifs) et utilisent les approximations les mieux ajustées aux corpus et à leur partition, aux fréquences et sous-fréquences des vocables (loi normale et écart réduit, lois de Khi 2, de Poisson, T de Student...). Jugée sur tests, la comparaison d’effectifs «théoriques» calculés et des observations faites sur les listes de vocabulaires ou de classes obtenues après dépouillement permet de caractériser le style d’un écrivain, la particularité d’une œuvre ou les constantes d’un genre. Le lexique lui-même, qu’il soit d’auteur ou de situation, est atteint dans le calcul de son étendue théorique, comme il l’est, pour son contenu, dans le relevé de larges synchronies, source des «dictionnaires de fréquences». (Le plus important de ces dictionnaires est celui du Trésor de la langue française réalisé à Nancy sous la direction de P. Imbs et R. Martin.) Des travaux aussi divers que ceux de C. Bernet sur Racine, E. Brunet sur Giraudoux, G. Engwall sur des romans contemporains, S. Monsonégo sur le français médiéval ou P. van Rutten sur Saint-John Perse s’inspirent des études pionnières de Muller. (Revues à consulter: Travaux de linguistique et de littérature , université de Strasbourg, et Recherches linguistiques , université de Metz.)Certains chercheurs opposent aux dénombrements de mots lemmatisés, désambiguisés et classifiés, une quantification qui porte directement sur les formes graphiques et leur organisation à la surface du texte. Regroupés dans le laboratoire de lexicologie politique (E.N.S. de Saint-Cloud) fondé par R. L. Wagner et Tournier, ils affirment leur scepticisme quant aux études hors contexte, à la possibilité même d’une statistique du «lexique» et aux interventions qui transforment un corpus en témoin de langue. Cette position critique les conduit — lors de la phase d’inventaire des occurrences et tant qu’une lemmatisation automatique n’imposera pas à tous les mêmes absolus — à éviter des interprétations prématurées au niveau des signes observés. Pour eux, le «texte est roi», son vocabulaire ne constitue pas l’échantillon représentatif d’un lexique virtuel mais la réalité première. S’en tenir ainsi aux données matérielles, c’est proposer une description de séries et de réseaux de «formes» indicées, dont l’interprétation s’opère non par inférence sur une langue en soi mais par retour aux conditions de la production des textes. Car — second principe — refuser pour les mots de parler de «fréquence en langue», c’est considérer les variables psycho-sociales, repérées et choisies lors de la constitution du corpus, comme explicatives des distorsions constatées dans les comptes des sorties-machine. Le logiciel de Saint-Cloud sépare ainsi les formes à sous-fréquence spécifique (en positif comme en négatif) des textes et les formes les mieux réparties dans le corpus; il sélectionne également les paires, chaînes ou cycles de co-occurrents les plus caractéristiques. Pour ce faire, les programmes conçus par P. Lafon abandonnent, sur les conseils de Guilbaud, les approximations binomiales et la pratique de la règle de trois; ils tablent sur la loi hypergéométrique (tirages exhaustifs) afin de juger chaque indice en probabilité. S’inspirant auparavant des techniques classiques, A. Geffroy, Lafon et Tournier avaient appliqué à des documents politiques leur visée descriptiviste et socio-linguistique: on peut lire Des tracts en Mai-68. Mesures de vocabulaire... (Presses de la F.N.S.P., 1975, rééd. Champ libre, 1978) et 1848. Des ouvriers et des mots (Presses de la F.N.S.P., 1979). Mais, depuis 1975, le pari «probabiliste» l’emporte dans les programmes du laboratoire. Revue à consulter: Travaux de lexicométrie et de lexicologie politique , E.N.S. de Saint-Cloud.L’ordinateur est à la source d’une évolution de la lexicométrie en direction d’une sophistication des traitements et d’une macro-statistique de corpus. Des progrès importants sont en vue du côté des analyseurs lexicaux ou morpho-syntaxiques: recherches sur la lemmatisation du français, traduction automatique, très avancée à Grenoble grâce au G.E.T.A. de B. Vauquois, statistiques grammaticales de M. Gross ou de J. Roy, etc. Mais l’événement déterminant est l’installation, à l’Institut de la langue française de Nancy (dirigé par B. Quemada), de la banque de textes la plus riche du monde, avec ses 150 millions de mots, prometteuse d’études jusqu’à présent non réalisables. Le quantitatif rencontre enfin la quantité, et peut-être pourra-t-on bientôt parler statistiquement, sinon de langue, du moins d’usages, c’est-à-dire de situations d’énonciation et de traditions d’écriture.
Encyclopédie Universelle. 2012.